java - 从 URL 中提取 HTML

ruby - 使用 Mechanize 读取本地 HTML 文件

我正在构建一个爬虫，我知道如何使用rubymechanize使用以下代码从网上读取页面:require'mechanize'agent=Mechanize.newagent.get"http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗？怎么办？最佳答案仅使用file://协议(protocol)对我来说效果很好:html_dir=File.dirname(__FILE__)page=agent.get("file:///#{html_dir}/example-file.html"

ruby - 我如何使用 .html.erb 作为 Sinatra View 的文件扩展名？

如果我有以下Sinatra代码:get'/hi'doerb:helloend如果我有一个名为views/hello.erb的文件，这会很好用。但是，如果我有一个名为views/hello.html.erb的文件，Sinatra找不到该文件并给我一个错误。我如何告诉Sinatra我希望它查找.html.erb作为有效的.erb扩展名？最佳答案 Sinatra使用Tilt呈现其模板，并将扩展与其相关联。您所要做的就是告诉Tilt它应该使用ERB来呈现该扩展:Tilt.registerTilt::ERBTemplate,'html.er

扩展名 Sinatra code erb hello ruby

ruby-on-rails - Ruby/Rails 3.1 : Given a URL string, 删除路径

给定任何有效的HTTP/HTTPS字符串，我想解析/转换它，以便最终结果恰好是字符串的根。因此给出的URL:http://foo.example.com:8080/whatsit/foo.bar?x=yhttps://example.net/我想要结果:http://foo.example.com:8080/https://example.net/我找到了documentation对于URI::Parser不是super平易近人。我最初的天真解决方案是一个简单的正则表达式，例如:/\A(https?:\/\/[^\/]+\/)/(即:匹配协议(protocol)后的第一个斜杠。)欢迎提

ruby-on-rails string section example code ruby ruby-on-rails-3.1

ruby-on-rails - rails : Appending URL parameters & removing URL parameters

编辑:请参阅下面未回答的第二部分。(已回答)I.附加URL我正在尝试使用基本参数指南在我的View中堆叠参数:users_path(:a=>'test')以上将返回:?a=test但是，我希望能够连续点击:users_path(:b=>'goat')并让它返回?a=test&b=goat关于如何堆叠/附加这些URL参数有什么建议吗？(未回答)II.移除参数如果我想在参数设置旁边添加一个[x]链接，我该如何删除其相应的参数？(已回答)三。删除页面参数我想在用户选择参数选项时删除page参数。有没有办法做到这一点？很明显，如果我选择“体育”作为参数类别，则分页不应保留在第26页上。

parameters rails code strong section ruby-on-rails ruby ruby-on-rails-3

Ruby 的 vcr 的 Java 替代品？

是否有Ruby'sVCR的java替代品？？据我所知，使用VCR的好处是巨大的，您可以运行“集成测试”并记录结果，将它们存储在本地某个地方。现在，从下次需要运行测试时起，您可以使用第一次运行时记录的数据模拟实际数据库命中。Java世界中有类似的东西吗？如果没有，如果我尝试实现它可能会遇到什么样的瓶颈？VCR只记录HTTP交互，但是否可以采用这种方法来记录，比如对其他团队的API的任何类型的数据库操作/函数调用，我不需要测试，基本上这将使我免于模拟所以通过自动化来完成很多事情。Here是带有Ruby单元测试的VCR示例: 最佳答案查

替代品 Ruby section noreferrer noopener java mocking tdd vcr

ruby-on-rails - 解析 URL 以提取域的最佳方法是什么？

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:RubycodetoextracthostfromURLstring我发现这个模块叫做URI可以解析url。(我是ruby的新手。在这种情况下，“模块”是否与“库”同义？)然后您可以提取主机名。uri=URI.parse("http://www.ruby-lang.org/")...puri.host#=>"www.ruby-lang.org"据此，我想您可以删除“www.”并使用正则表达式保留其他子域。有没有人有更直接的替代方法或者这种方法是否正确？

ruby-on-rails rails section notice ruby regex parsing

ruby - 如何在 selenium-webdriver 中获取网页的当前 URL

我正在使用seleniumwebdriver在浏览器上做一些自动化。现在需要获取当前在浏览器中打开的页面的当前url。我写了下面的代码但是给我错误:element=driver.find_element:name=>"btnSearch"element.clickall_table_data=driver.find_elements(:tag_name,"td")all_table_data.eachdo|td|putstd.textendprintdriver.get_url但它给我一个错误:filedownload.rb:30:in`':undefinedmethod`get_ur

selenium-webdriver 何在 section selenium code ruby ruby-1.9.3

ruby-on-rails - 知道@vendor.name 后如何使 Ruby on Rails 中的 URL 对 SEO 友好？

我的应用程序在RoR中我有一个名为showsummary的操作/View，其中ID已传递到URL，并且Controller使用它来实例化@vendor，其中@vendor.name是公司的名称。我希望URL是showsummary/1/而不是在URL中包含/vendor-name。我该怎么做？最佳答案所有这些解决方案都使用find_by_name，这肯定需要在该列上有一个索引并且要求它们是唯一的。我们使用的一个更好的解决方案是在供应商名称前加上其ID，但牺牲了一点美观。这意味着您不必在名称列上有索引和/或要求唯一性。供应商.rb

ruby-on-rails vendor code section name ruby

ruby - 将带空格的字符串转换为 URL

我正在使用ruby和googles反向地理编码yql表来理想地自动化我的一些搜索查询。我遇到的问题是将查询转换为合法的url格式。问题是我使用的编码返回非法url。我正在运行的查询如下query="select*fromgoogle.geocodingwhereq='40.714224,-73.961452'"pQuery=CGI::escape(query)处理后的查询的最终输出如下所示http://query.yahooapis.com/v1/public/yql?q=select+%2A+from+google.geocoding+where+q%3D%2740.371422

ruby URL section code 73.961452 url-encoding yql

ruby-on-rails - 如何解析 url 以获取基本 url？ -- rails 3.1

我怎样才能像这样解析urlhttp://www.1800contacts.com/productlist.aspx?dl=P&source=cj&ac=8.2.0007只得到http://www.1800contacts.com?附言。有些url有子域等，所以我不能在这里使用正则表达式。最佳答案尝试使用“uri”库:require'uri'address='http://www.1800contacts.com/productlist.aspx?dl=P&source=cj&ac=8.2.0007'uri=URI.parse(a

rails ruby-on-rails section code contacts ruby ruby-on-rails-3.1

17 18 192021 22 23